草庐IT

Java Quartz 作业持久化

全部标签

amazon-web-services - EMR 上 Hadoop 作业的 S3 文件的最佳文件大小?

我正在尝试确定存储在S3中的文件的理想大小,该文件将用于EMR上的Hadoop作业。目前我有大约5-10gb的大文本文件。我担心将这些大文件复制到HDFS以运行MapReduce作业会延迟。我可以选择缩小这些文件。我知道在MapReduce作业中使用S3作为输入目录时,S3文件会被并行复制到HDFS。但是,是使用单线程将单个大文件复制到HDFS,还是将该文件作为多个部分并行复制?另外,Gzip压缩是否影响将单个文件分成多个部分复制? 最佳答案 有两个因素需要考虑:压缩文件不能在任务之间拆分。例如,如果您有一个大型压缩输入文件,则只有

hadoop - 如何在 docker 容器中持久化 HDFS 数据

我有一个hadoop的docker镜像。(在我的例子中是https://github.com/kiwenlau/hadoop-cluster-docker,但这个问题适用于任何hadoopdocker图像)我正在如下运行docker容器..sudodockerrun-itd--net=hadoop--user=root-p50070:50070\-p8088:8088-p9000:9000--namehadoop-master--hostnamehadoop-master\kiwenlau/hadoop我正在从主机ubuntu机器上运行的java将数据写入hdfs文件系统。FileSy

python - 我的 boto elastic mapreduce jar 作业流参数有什么问题?

我正在使用boto库在Amazon的ElasticMapReduceWeb服务(EMR)中创建工作流。以下代码应创建一个步骤:step2=JarStep(name='Findsimiliaritems',jar='s3n://recommendertest/mahout-core/mahout-core-0.5-SNAPSHOT.jar',main_class='org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob',step_args=['s3n://bucket/output/'+run_id+'/a

python - 我们可以在 Hadoop Streaming 中级联多个 MapReduce 作业吗(lang : Python)

我正在使用Python,并且必须使用HadoopStreaming处理以下场景:a)Map1->Reduce1->Map2->Reduce2b)我不想存储中间文件c)我不想安装Cascading、Yelp、Oozie等软件包。我将它们保留为最后的选择。我已经在SO和其他地方进行过相同类型的讨论,但找不到关于Python的答案。能否请您提出建议。 最佳答案 b)Idontwanttostoreintermediatefilesc)IdontwanttoinstallpackageslikeCascading,Yelp,Oozie.有什

hadoop - 在特定队列上运行 sqoop 作业

我正在尝试创建一个在特定队列中运行的Sqoop作业,但它不起作用。我试过两件事:1st:在作业创建中声明队列sqoopjob\--createmyjob\--import\--connectjdbc:teradata://RCT/DATABASE=MYDB\-Dmapred.job.queue.name=shortduration\--drivercom.teradata.jdbc.TeraDriver\--usernameDBUSER-P\--query"$query"\--target-dir/data/source/dest/$i\--check-columnDAT_CRN_AG

hadoop - 如何在hadoop中安排作业

我是hadoop的新手,我写了一些作业并将它们导出为jar文件。我可以使用hadoopjar命令运行它们,我想每隔一小时运行一次这些作业。我该怎么做呢?提前致谢。 最佳答案 Hadoop本身没有像您建议的那样安排作业的方法。所以你有两个主要选择,Java的时间和调度功能,或者从操作系统运行作业,我建议Cron.我个人会使用cron来执行此操作,它简单且非常灵活,并且默认安装在大多数服务器上。还有很多教程。在每小时的第一分钟运行的Cron示例。0****/bin/hadoopjarmyJar.jar如果您想将它保留在Java本身中,我

hadoop - 在 mapreduce 作业中恢复黑名单 tasktrackers

我有5个节点的hadoop集群。我为每个节点配置了10个映射器。当MR作业正在运行时,其中一个hdfs节点死亡。这最终导致该任务跟踪器被列入黑名单。在它被列入黑名单之后和MR作业完成之前,如果我修复受影响的hdfs节点,是否可以从黑名单中恢复任务跟踪器?我在ubuntu上使用clouderacdh4.2。 最佳答案 我正在阅读有关tasktracker失败的“Hadoop权威指南”。我找到了这个说法“列入黑名单的tasktracker没有分配任务,但它们会继续与jobtracker通信。故障会随着时间的推移而过期(以每天一个的速度)

带有 RHadoop 作业的 R + Hadoop 在单机集群上失败

作为新手,可能会问一些愚蠢的问题,在此先表示歉意。我已经在单机集群(Ubuntu14.04)上安装了Hadoop,并成功测试了Apache安装指南中指定的非常基本的程序。随后,我安装了R、RStudio以及软件包rhdfs、rmr2和所有依赖项。然后我尝试运行以下程序:Sys.setenv(HADOOP_CMD="/usr/local/hadoop/bin/hadoop")Sys.setenv(HADOOP_STREAMING="/usr/local/hadoop/contrib/streaming/hadoop-streaming-1.2.1.jar")library('rhdfs'

java - Hadoop 作业执行所花费的时间

是否有一个API可以计算出Hadoop作业执行的时间(完全正确->没有hack。)? 最佳答案 我认为最简单的方法是在您的驱动程序类中测量时间。你可以吗?我的意思是这样的:longstart=newDate().getTime();booleanstatus=job.waitForCompletion(true);longend=newDate().getTime();System.out.println("Jobtook"+(end-start)+"milliseconds"); 关于

java - 如何在触发时在java代码中为hadoop作业设置优先级?

这就是我的jobrunner的样子。如何在触发此作业时设置低优先级?publicintrun(String[]args)throwsException{this.initJob();PathoutputPath=newPath(args[2]);FileInputFormat.setInputPaths(job,args[0]);FileOutputFormat.setOutputPath(job,outputPath);job.getConfiguration().set("FREQUENCY",args[3]);job.getConfiguration().set("TIMEZON